In this paper, we present Pangu-Weather, a deep learning based system for fast and accurate global weather forecast. For this purpose, we establish a data-driven environment by downloading $43$ years of hourly global weather data from the 5th generation of ECMWF reanalysis (ERA5) data and train a few deep neural networks with about $256$ million parameters in total. The spatial resolution of forecast is $0.25^\circ\times0.25^\circ$, comparable to the ECMWF Integrated Forecast Systems (IFS). More importantly, for the first time, an AI-based method outperforms state-of-the-art numerical weather prediction (NWP) methods in terms of accuracy (latitude-weighted RMSE and ACC) of all factors (e.g., geopotential, specific humidity, wind speed, temperature, etc.) and in all time ranges (from one hour to one week). There are two key strategies to improve the prediction accuracy: (i) designing a 3D Earth Specific Transformer (3DEST) architecture that formulates the height (pressure level) information into cubic data, and (ii) applying a hierarchical temporal aggregation algorithm to alleviate cumulative forecast errors. In deterministic forecast, Pangu-Weather shows great advantages for short to medium-range forecast (i.e., forecast time ranges from one hour to one week). Pangu-Weather supports a wide range of downstream forecast scenarios, including extreme weather forecast (e.g., tropical cyclone tracking) and large-member ensemble forecast in real-time. Pangu-Weather not only ends the debate on whether AI-based methods can surpass conventional NWP methods, but also reveals novel directions for improving deep learning weather forecast systems.
translated by 谷歌翻译
Saliency methods compute heat maps that highlight portions of an input that were most {\em important} for the label assigned to it by a deep net. Evaluations of saliency methods convert this heat map into a new {\em masked input} by retaining the $k$ highest-ranked pixels of the original input and replacing the rest with \textquotedblleft uninformative\textquotedblright\ pixels, and checking if the net's output is mostly unchanged. This is usually seen as an {\em explanation} of the output, but the current paper highlights reasons why this inference of causality may be suspect. Inspired by logic concepts of {\em completeness \& soundness}, it observes that the above type of evaluation focuses on completeness of the explanation, but ignores soundness. New evaluation metrics are introduced to capture both notions, while staying in an {\em intrinsic} framework -- i.e., using the dataset and the net, but no separately trained nets, human evaluations, etc. A simple saliency method is described that matches or outperforms prior methods in the evaluations. Experiments also suggest new intrinsic justifications, based on soundness, for popular heuristic tricks such as TV regularization and upsampling.
translated by 谷歌翻译
贝叶斯全球优化(BGO)是一种有效的替代辅助技术,用于涉及昂贵评估的问题。可以使用并行技术在一次迭代中评估真实昂贵的目标功能以增加执行时间。一种有效而直接的方法是设计一种采集函数,可以在一次迭代中评估多个解决方案浴的性能,而不是单点/解决方案。本文提出了\ emph {改进的概率}(poi)的五个替代方案,其中有多个点(q-poi)用于多目标贝叶斯全局优化(MOBGO),从而考虑了多个点之间的协方差。提供了所有提出的Q-POIS的精确计算公式和蒙特卡洛近似算法。基于与帕累托 - 前相关的多个点的分布,研究了五个Q-POI的位置依赖性行为。此外,将五个Q-Pois与其他二十个生物目标基准上的其他九个最先进的杂物算法进行了比较。进行了各种基准的经验实验,以证明两个贪婪的Q-Pois($ \ kpoi _ {\ mbox {\ mbox {best}} $和$ \ kpoi _ {\ kpoi _ {\ mbox {all}} $)在低维问题上以及两个探索性Q-Pois($ \ kpoi _ {\ mbox {one}} $和$ \ kpoi _ {\ mbox {worst}} $)在难以实现的高维问题上具有难以适应的帕雷托前界。
translated by 谷歌翻译
综合虚拟人类及其3D环境之间的自然相互作用对于众多应用程序(例如计算机游戏和AR/VR体验)至关重要。我们的目标是使人类与给定的3D场景进行互动,该场景由高级语义规格控制为动作类别和对象实例,例如“坐在椅子上”。将相互作用语义纳入生成框架中的主要挑战是学习一个共同表示,该表示有效地捕获了异质信息,包括人体的关节,3D对象几何以及相互作用的意图。为了应对这一挑战,我们设计了一种基于变压器的新型生成模型,其中铰接的3D人体表面点和3D对象共同编码在统一的潜在空间中,并且人与物体之间的相互作用语义是通过嵌入的。位置编码。此外,受到人类可以同时与多个对象相互作用的相互作用的组成性质的启发,我们将相互作用语义定义为不同原子动作对象对的组成。我们提出的生成模型自然可以结合不同数量的原子相互作用,从而无需复合相互作用数据即可合成组成的人类习惯相互作用。我们使用交互语义标签和场景实例分割扩展了Prox数据集,以评估我们的方法,并证明我们的方法可以通过语义控制生成现实的人类场景相互作用。我们的感知研究表明,我们合成的虚拟人类可以自然与3D场景相互作用,从而超过现有方法。我们将方法硬币命名,用于与语义控制的组成相互作用合成。代码和数据可在https://github.com/zkf1997/coins上获得。
translated by 谷歌翻译
跨图像建立视觉对应是一项具有挑战性且必不可少的任务。最近,已经提出了大量的自我监督方法,以更好地学习视觉对应的表示。但是,我们发现这些方法通常无法利用语义信息,并且在低级功能的匹配方面过度融合。相反,人类的视觉能够将不同的物体区分为跟踪的借口。受此范式的启发,我们建议学习语义意识的细粒对应关系。首先,我们证明语义对应是通过一组丰富的图像级别自我监督方法隐式获得的。我们进一步设计了一个像素级的自我监督学习目标,该目标专门针对细粒的对应关系。对于下游任务,我们将这两种互补的对应表示形式融合在一起,表明它们是协同增强性能的。我们的方法超过了先前的最先进的自我监督方法,使用卷积网络在各种视觉通信任务上,包括视频对象分割,人姿势跟踪和人类部分跟踪。
translated by 谷歌翻译
加强学习(RL)为决策提供了一个强大的框架,但是其实践中的应用通常需要精心设计的奖励功能。对抗性模仿学习(AIL)阐明了自动策略获取,而无需从环境中访问奖励信号。在这项工作中,我们提出了自动编码的对抗模仿学习(AEAIL),这是一个强大而可扩展的AIL框架。为了从演示中诱导专家政策,AEAIL利用自动编码器的重建误差作为奖励信号,该奖励信号比以前的基于歧视者提供了更多的优化策略信息。随后,我们使用派生的目标函数来训练自动编码器和代理策略。实验表明,与穆约科克环境中的最先进方法相比,我们的AEAIL表现优越。更重要的是,当专家演示嘈杂时,AEAIL表现出更好的鲁棒性。具体而言,我们的方法分别获得了$ 16.4 \%$ $和$ 47.2 \%$相对改进的总体,而最佳基线Fairl和PWIL分别在清洁和嘈杂的专家数据上。视频结果,开源代码和数据集可在https://sites.google.com/view/auto-encoding-imitation中找到。
translated by 谷歌翻译
引入了归一化层(例如,批处理归一化,层归一化),以帮助在非常深的网中获得优化困难,但它们显然也有助于概括,即使在不太深入的网中也是如此。由于长期以来的信念,即最小的最小值导致更好的概括,本文提供了数学分析和支持实验,这表明归一化(与伴随的重量赛一起)鼓励GD降低损失表面的清晰度。鉴于损失是标准不变的,这是标准化的已知结果,因此仔细地定义了“清晰度”。具体而言,对于具有归一化的相当广泛的神经网类,我们的理论解释了有限学习率的GD如何进入所谓的稳定边缘(EOS)制度,并通过连续的清晰度来表征GD的轨迹 - 还原流。
translated by 谷歌翻译
微卫星不稳定性(MSI)和微卫星稳定性(MSS)的预测对于预测胃肠癌的治疗响应和预后至关重要。在临床实践中,建议使用通用MSI测试,但这种测试的可访问性是有限的。因此,希望更具成本效益和广泛可接近的工具来覆盖传统上未经测试的患者。在过去的几年中,已经提出了基于深度学习的算法,以预测MSI直接从血红素蛋白和曙红(H&E) - 染色的整个幻灯片图像(WSIS)。这种算法可以概括为(1)修补程序级MSI / MSS预测,以及(2)患者级聚合。与为第一阶段采用的高级深度学习方法相比,在第二阶段仅采用NA \“IVE一阶统计(例如,平均和计数)。在本文中,我们提出了一个简单而广泛概括的患者级MSI聚合(MAG)方法,以有效地集成贵重补丁级信息。简而言之,第一阶段的整个概率分布被建模为基于直方图的特征,以融合为机器学习的最终结果(例如, SVM)。所提出的MAG方法可以轻松地以即插即用方式使用,这些方法已经在五个广泛使用的深度神经网络上进行了评估:Reset,MobileNetv2,WeparessNet,DPN和ResNext。从结果,所提出的MAG方法始终如一地提高了两个公共数据集的患者级别聚合的准确性。我们希望提出的方法可能会利用基于低成本的H&E的MSI检测方法。代码o F我们的工作已在HTTPS://github.com/calvin-pang/mag公开提供。
translated by 谷歌翻译
通过突出显示为决定贡献最大的输入图像的区域,显着性图已成为使神经网络解释的流行方法。在医学成像中,它们特别适合于在异常定位的背景下解释神经网络。然而,从我们的实验中,它们不太适用于分类问题,其中允许区分不同类别的特征在空间上相关,散射和绝对是非微不足道的。在本文中,我们提出了一种新的范例,以获得更好的可解释性。为此,我们向用户提供相关且易于解释的信息,以便他可以形成自己的意见。我们使用Disentangled的变分自动编码器,潜在表示分为两个组成部分:不可解释的部分和解剖部件。后者占了明确表示不同类别的分类变量。除了提供给定输入样本的类之外,这种模型还通过修改潜在表示中的分类变量的值来改变对另一个类的样本来将样本转换为另一类的样本。这铺平了更容易解释阶级差异的方式。我们说明了这种方法在法医学中髋部骨骼的自动性测定背景下的相关性。模型编码的功能,发现不同类别的功能与专家知识一致。
translated by 谷歌翻译
今天的VIDSGG模型是基于建议的方法,即,它们首先生成众多配对的主题对象片段作为提案,然后对每个提案进行谓词分类。在本文中,我们认为这种普遍的基于建议的框架有三个固有的缺点:1)建议的地面真理谓词标签部分是正确的。 2)他们打破了相同主题对象对的不同谓词实例之间的高阶关系。 3)Vidsgg性能是由提案质量的大约。为此,我们向Vidsgg提出了一个新的分类 - 然后接地框架,可以避免所有三个被忽视的缺点。同时,在此框架下,我们将视频场景图形为临时二分形图形,其中实体和谓词是具有时隙的两种类型的节点,并且边缘在这些节点之间表示不同的语义角色。此配方充分利用了我们的新框架。因此,我们进一步提出了一种基于新的二分曲线图的SGG模型:大。具体而言,大由两部分组成:分类阶段和接地阶段,前者旨在对所有节点和边缘的类别进行分类,并且后者试图本地化每个关系实例的时间位置。两个Vidsgg数据集上的广泛消融已证明我们框架和大的有效性。
translated by 谷歌翻译